Model Selection

Multimodal Instruction

# Multimodal Instruction

Phi 4 Multimodal Instruct

Phi-4-multimodal-instruct is a lightweight open-source multimodal foundation model that supports text, image, and audio inputs to generate text outputs, with a context length of 128K tokens.

Multimodal Fusion

Transformers Supports Multiple Languages

Heron Chat Git Llama 2 7b V0

Heron GIT Llama 2 7B is a vision-language model capable of conversing about input images.

Transformers English

Featured Recommended AI Models

AIbase

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

© 2025AIbase